降维打击:流量造假者,我知道你昨天干了什么?
以下文章来源于浙江移动神灯大数据 ,作者王敏,齐希
10分钟,头条阅读122;
20分钟,头条阅读310;
1小时,头条阅读2万;
3小时,头条阅读10万+;
4小时,第2、3篇阅读突破10万+。
还是太陡峭了,小C想,下次要他们刷的更缓一些。
但就是这个陡峭诡谲的10万+,将金主爸爸的指标干脆利落的达成,让2万广告费成功落袋。
而这10万+的刷量成本,不过3000元。
流量造假,已成为这个行业的潜规则。利益劫持着数据,利益裹挟着行业人,行业人迷陷狂欢难以自拔。
1、公众号流量造假现状,惊悚骇人
7月25日,腾讯网络安全与犯罪研究基地的高级研究员张宝峰表示:目前国内各种刷量平台已达1000多家,位于头部的100家每个月的流水有200多万元。受暴利驱使,很多地下产业从业者涌入这个行业,现在可以观察到国内从事刷量产业的人员规模累计达到900多万。
2、打击刷量,技术难点在哪里?
现代的刷量手法是什么?
现代的刷量手法——“挂机刷”,通过各种渠道搜集、雇佣大量真实账号,用群控软件操控后,以一定频率和时间来制造流量。
该手法吸收了历代刷量手法(协议刷、人肉刷、群控刷)的优点,具有账号IP分布式、可规模化、性价比高、不易被防御策略识别等特点。
打击挂机刷,难点在哪?
挂刷机平台常会留下刷量痕迹,当前业内主流的流量监测服务商,采用分钟级监测技术,能有效监测到这种刷量痕迹,如本文开头所描述的陡峭诡谲的10万+、点赞数与阅读数不匹配等。
然而—
为规避监测,挂刷机平台在不断演进,以模拟网民的阅读习惯和真实10万+的数据曲线。如改进刷量的速度和运作时间段,以合适的比例刷在看、点赞,采用NLP技术合成留言文本等。
下图为一款刷量工具的时间设置。平滑模式下,默认的流量时间曲线符合中国网民的实际阅读使用习惯;也可设定刷量时间段(如0-7点不刷量),及调节控制杆自定义刷量速度等。
3、流量可以模拟,但用户画像难以模仿
如何打击进化后的挂机刷?
目前业内缺乏有效的技术手段,因为其监测的要素逃不脱时间、速度、速率等等,而这些要素很容易被模仿,至于评论,以后机器肯定可以干的比大部分真人好!
问题的本质跟那个经典问题很像:“在互联网时代,你并不知道对面跟你聊天的是一只狗!”也就是说,只要不线下碰面,通过线上行为表现出来的特征大都是可以被模仿的。
那么,什么东西很难模仿?
笔者认为至少有两个。
第一是个人生活属性不可模仿。
你要上网就必须实名申请手机号,手机号一定程度上就代表着一个自然人,当然你可以说黑市囤积了很多非实名手机,这些手机号在刷量的时候当然可以表现的像个自然人,但自然人是需要线下生活的,而刷量的手机不太可能过上一个自然人正常的生活,这就是突破点。
比如刷量手机不会有亲戚打电话,不会上班下班,不会有正常的娱乐生活,它的线下生活“一塌糊涂”。
第二是群体用户特征不可模仿。
每个垂直媒体都有自己的受众群体,这些受众群体的特征是不同的,比如“与数据同行”这个微信公众号主要面向大数据行业的专业人士,其群体特征就是IT职业为主、通信人士占比很高,80后现在是主流。
刷量的手机很难模拟这些群体的特征,因为数据维度太多,模仿成本高到无法想象,再说了,如果刷量的从业人员能够将数据做到这个程度,根本不需要靠刷量赚钱。
因此,要从根本上解决流量欺诈,就不能仅考虑单一检测要素,而要进行多维度分析,这就是:降维打击。
可惜的是,无论是自然人的识别,还是群体特征的刻画,对于数据和模型的要求太高了,怎么办?
最近,浙江移动给出了自己的解决方案!
4、神灯“微洞察”,提供新打击手段
微洞察,一款深耕微信生态的公众号运营分析工具,提供公众号多维度分析、内容聚合搜索、个性化排行榜、公众号对比等服务。
“粉丝特征偏移分析”技术,将A公众号的粉丝画像特征,与本类别基本面的粉丝画像特征进行比对,当发生显著偏移时,则该公众号存在刷量嫌疑;将A公众号某篇推文的读者画像,与A号自身的粉丝画像特征进行比对,当发生显著偏移时,则该篇推文存在刷量嫌疑。
下图为“微洞察”所监测的某公众号7月25日的推文阅读数曲线。该公众号是个著名的搞笑趣闻类公众号,活跃粉丝300万左右,头条和非头条的阅读数均为10万+。
从分钟级监测来看,该条推文的阅读数并没有任何异常(横线停滞处为凌晨0点-7点)。
造假推文在多个维度已显示出显著偏移,下面两张图描述了年龄维度、性别维度上的偏移。
年龄维度上,公众号整体粉丝画像、前几天推文(7月15日)、后几天推文(7月28日)三者的年龄段分布高度一致;而造假推文(7月25日)的年龄段分布则截然不同,偏移显著:60后读者占比突增10%,70后读者占比突增10%,80后读者占比突增10%,90后读者占比锐减25%。
性别维度上,正常推文的性别分布与整体的高度一致,造假推文(7月25日)的女性占比从50%突增到64%。
当前,“微洞察”产品依托于浙江移动强大的数据中台能力,刻画人群特征的标签已经达到万级别,对外服务的客户超过千家,以下是一个刻画某公众号粉丝的画像示例。
5、浙江移动神灯大数据商务联系
如果你有进一步了解和合作的需求,可以扫描下图二维码,关注“浙江移动神灯大数据”公众号,以便获得更详细的产品介绍及商务联系方式。
“浙江移动神灯大数据”公众号立足于推送基于大数据的客户洞察和黑技术干货文章,欢迎关注!
注:本文图表和数据转载自“浙江移动神灯大数据”公众号文章《流量狂欢:繁盛还是欺诈,捷径还是末路?》
完
作者:傅一平 (微信号:fuyipingmnb)
可能错过的近期精选文章(点击链接即可阅读)
从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?
艰难的旅程,你的数据中台到底能为一线提供多少火力?
PPT,考验你的格局、能力和思维的方式,你得学会驾驭它!
如何避免成为一台取数机器?
哪些广为人知的数据挖掘案例其实是一地鸡毛?
数据的价值到底如何评估?
为什么我提交的数据分析报告总是被领导K?
我如何用统计学指导自己的生活?
从吴军的“算法的油水就那么多”说起!
一起成长,让我们与数据同行
忙完工作,偷得浮生半日闲,讲述自己的数据人生
大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现